Python中的生成式AI基础：从词频统计到上下文理解—

自然语言处理（NLP）的发展标志着一个根本性转变：语言不再被视为孤立的离散符号，而是被映射到连续的多维向量空间中。我们已经从简单的基于特征的表示发展为深层的语义映射。

统计时代（稀疏型）: 早期的自然语言处理依赖于TF-IDF算法。尽管在信息检索方面表现良好，但存在“稀疏性诅咒”问题。在TF-IDF系统中，“医生”和“医师”是正交向量——数学上，它们之间毫无关联。
分布式革命（神经网络语言模型与Word2Vec）: 神经网络语言模型引入了密集向量。Word2Vec（Skip-gram/CBOW）学习到，在相似上下文中出现的词语应具有相近的空间位置。
全局统计（GloVe）: GloVe通过分析整个语料库中的全局共现关系来弥合差距，确保向量间的距离反映数学上的语义相似性。

深度洞察

从统计词频转变为预测上下文，使模型能够捕捉细微差别。这种“分布式表示”意味着单个词语的意义被分散在数百个向量维度中，每个维度可能代表一种潜在的语义特征，如性别、王室身份或医学背景。